青藏高原地表土壤水分模型预测数据集
2015–2100)研发

  1,刘杨晓月2*许宏钊3,张惠芳4,朱桂丽4符晓鹏4

1. 北京林业大学,北京 100101
2.
中国科学院地理科学与资源研究所,北京 100101
3.
西藏自治区地质矿产勘查开发局第二地质大队,拉萨 850000
4.
西藏自治区生态环境监测中心,拉萨 850000

  青藏高原地表土壤水分对区域水循环与生态系统具有关键作用。作者研发了2015–2100年、空间分辨率为0.1°×0.1°的青藏高原地表土壤水分融合数据集。首先,利用MAQUNAQUNGARI站点实测数据对21CMIP6土壤水分数据、SMAPERA5-Land数据开展精度评价,计算偏差(Bias)、拟合优度(R)、均方根误差(RMSE)和无偏均方根误差(ubRMSE);同时结合增强三重搭配(Enhanced Triple CollocationETC)获取随机误差标准差(RESD)和相关系数(CC),筛选出参与融合的4套地球系统模式。其次,基于ETC评价结果,对SMAPERA5-Land产品进行差异化权重融合,选取最优融合结果。最后,基于随机森林(Random Forest)算法集成多源变量完成建模,并通过站点数据检验其预测精度。数据集包含:(1SSP1-2.6SSP2-4.5SSP3-7.0SSP5-8.5种情景下2015–2100年月尺度土壤水分空间数据(0.1°分辨率);(2MAQUNAQUNGARI三个网络0–0.1 m土层的月尺度实测数据。数据集以.mdd.tif.shp.csv格式分别存储,由4,838个数据文件组成,数据量为0.99 GB(压缩为1个文件,315 MB)。结果表明,相较于原始CMIP6模式数据,融合产品表现出更高的拟合度和更低的误差,有效提升了青藏高原区域水分动态的表征能力。

关键词青藏高原;地表土壤水分;未来多情景;随机森林;融合

DOI: https://doi.org/10.3974/geodp.2025.04.03

CSTR: https://cstr.escience.org.cn/CSTR:20146.14.2025.04.03

数据可用性声明:

本文关联实体数据集已在《全球变化数据仓储电子杂志(中英文)》出版,可获取:

https://doi.org/10.3974/geodb.2025.10.05.V1https://cstr.escience.org.cn/CSTR:20146.11.2025.10.05.V1.

 

1  前言

土壤水分(Soil MoistureSM)是陆地水文循环和能量交换的核心变量,广泛影响着生态系统运行、水资源分布、农田生产力和气候反馈过程[1,2]。在青藏高原这一地形复杂、生态脆弱的“亚洲水塔”区域,土壤水分的时空变化不仅调节地表蒸散和冻土动态,还直接关系到高原生态安全与气候变化响应[3,4]

尽管已有遥感反演、再分析和模式模拟等多种数据可用,但单一数据源常存在时空覆盖局限、误差不一致、物理一致性差等问题[5–7]。如土壤水分主动被动遥感卫星(Soil Moisture Active PassiveSMAP)所生成的土壤水分产品[8],虽具有高空间精度,但时间序列短、覆盖不完全;第五代欧洲中期天气预报中心再分析陆地数据(ECMWF Reanalysis v5-LandERA5-Land[9]虽提供长时序再分析数据,但精度存在空间差异。另一方面,全球耦合模式比较计划第六阶段产品(Coupled Model Intercomparison Project Phase 6CMIP6[10]提供了多模式、多情景的未来气候模拟数据,是研究区域长期土壤水分演变的重要基础,但各模式间模拟能力差异显著,需科学甄选与融合。

近年来,多源数据融合成为提升土壤水分预测精度与区域一致性的有效路径。其中,三重搭配法及其增强形式(Enhanced Triple CollocationETC)能有效剥离数据间的随机误差[11],而随机森林(Random ForestRF)等机器学习方法则具备强大的非线性建模能力和扩展性,已在土壤水分反演与时空预测中展现出优良性能[12]

此外,青藏高原地区对气候变化响应尤为敏感,水分状况变化将直接影响高寒草地、冻土层与生态格局[13]。获取具备长时序、高精度、覆盖未来气候情景的土壤水分数据,对提升区域气候响应模拟能力具有关键意义。

为此,本文以青藏高原为研究区域,融合遥感数据、再分析产品和多模式CMIP6土壤水分模拟数据,利用站点实测数据与增强三重搭配方法对数据精度进行评价,并结合随机森林算法构建面向多情景的逐月土壤水分预测模型,最终形成覆盖2015–2100年、空间分辨率为0.1°的地表土壤水分数据集,旨在为青藏高原的气候变化研究、水资源调配和生态系统响应模拟提供坚实的数据支撑

2  数据集元数据简介

《青藏高原地表土壤水分模型预测数据集(20152100)》[14]的名称、作者、地理区域、数据年代、时间分辨率、空间分辨率、数据集组成、数据出版与共享服务平台、数据共享政策等信息见表1

3  数据研发方法

3.1  数据来源

1CMIP6模拟数据

选用CMIP6提供的21个全球气候模式模拟的地表(0–10 cm)土壤水分数据[16],覆盖20152100年,涵盖4种共享社会经济路径,即SSP1-2.6(可持续发展路径)、SSP2-4.5(中等发展路径)、SSP3-7.0(地区对抗路径)、SSP5-8.5(化石燃料燃烧路径)。参与模型及其

1  《青藏高原地表土壤水分模型预测数据集(2015–2100)》元数据简表

 

 

数据集名称

青藏高原地表土壤水分模型预测数据集(2015–2100

数据集短名

QZP_RF_SoilMoisture_2015-2100

作者信息

宋倩,北京林业大学,songqianxb@bjfu.edu.cn

刘杨晓月,中国科学院地理科学与资源研究所lyxy@lreis.ac.cn

许宏钊,西藏自治区地质矿产勘查开发局第二地质大队,452449161@qq.com

张惠芳,西藏自治区生态环境监测中心,zhf0891@163.com

朱桂丽,西藏自治区生态环境监测中心,17789906283@163.com

符晓鹏,西藏自治区生态环境监测中心,359946719@qq.com

地理区域

青藏高原(约26°N–40°N, 73°E–105°E

数据年代

2015–2100

时间分辨率

逐月

空间分辨率

0.1°×0.1°

数据格式

.mdd.tif.shp.csv

数据量

315 MB(压缩后)

数据集组成

1)基于SSP126SSP245SSP370SSP585情景预测的2015–2100年每月的土壤水分空间分布数据,空间分辨率为0.1°;(2MAQUNAQUNGARI三个站点0–0.1 m土层的月尺度实测数据

基金项目

国家自然科学基金(42571539

数据计算环境

Python 3.11

出版与共享服务平台

全球变化科学研究数据出版系统 http://www.geodoi.ac.cn

地址

北京市朝阳区大屯路甲11100101,中国科学院地理科学与资源研究所

数据共享政策

1)“数据”以最便利的方式通过互联网系统免费向全社会开放,用户免费浏览、免费下载;(2)最终用户使用“数据”需要按照引用格式在参考文献或适当的位置标注数据来源;(3)增值服务用户或以任何形式散发和传播(包括通过计算机服务器)“数据”的用户需要与《全球变化数据学报(中英文)》编辑部签署书面协议,获得许可;(4)摘取“数据”中的部分记录创作新数据的作者需要遵循10%引用原则,即从本数据集中摘取的数据记录少于新数据集总记录量的10%,同时需要对摘取的数据记录标注数据来源[15]

数据和论文检索系统

DOICSTRCrossrefDCICSCDCNKISciEngineWDSGEOSSPubScholarCKRSC

 

所属机构包括:ACCESS-CM2(澳大利亚国家气候中心)、BCC-CSM2-MR(中国气象局)、CAMS-CSM1-0(中国科学院)、CanESM5-CanOE(加拿大环境气候变化局)、CESM2(美国国家大气研究中心)、CMCC-CM2-SR5(意大利气候变化中心)、CNRM-CM6-1CNRM-CM6-1-HRCNRM-ESM2-1(法国气象局)、EC-Earth3-Veg-LR(欧洲合作项目)、GFDL-ESM4(美国地球流体动力实验室)、IPSL-CM6A-LR(法国皮埃尔-西蒙-拉普拉斯研究所)、KACE-1-0-G(韩国气候研究所)、MIROC6MIROC-ES2L(日本东京大学和气象研究所)、MPI-ESM1-2-LR(德国马克斯-普朗克气象研究所)、MRI-ESM2-0(日本气象研究所)、NorESM2-LMNorESM2-MM(挪威气候中心)、TaiESM1(中国台湾中央研究院)、UKESM1-0-LL(英国哈德利气候中心)。

2)遥感与再分析数据

土壤水分主动被动探测卫星(SMAP)提供的三级土壤水分被动增强产品(Level-3 Soil Moisture Passive Enhanced[17],涵盖20153月至20254月,空间分辨率约为0.25°。本研究将其A轨与D轨数据融合处理后,生成逐日、逐月土壤水分数据。

欧洲中期天气预报中心ERA5-Land再分析数据集[18],采用其中的第1层土壤体积含水量数据(Volumetric Soil Water Layer 10–7 cm),包括20151月至20254月,空间分辨率为0.1°

3)实测站点观测数据

来自国际土壤水分网络(International Soil Moisture Network, ISMN[19]中青藏高原区域的3个子网络:MAQU(玛曲站)、NAQU(那曲站)和NGARI(阿里站)。数据以.stm格式存储,包含逐小时观测值。

首先,对每个站点的逐小时观测数据进行聚合:若某日某深度的有效观测小时数不少于6小时,则计算当日平均值;多个深度(0–0.1m)的日均值进一步融合为该站点该日的土壤水分值,反之视为缺测。随后,将日尺度序列聚合为月尺度:若某月的有效观测日不少于6天,则计算该月平均值,否则记为缺测。最终生成的月尺度土壤水分数据以 .csv 格式保存。

4)辅助变量数据

土壤属性数据:来源于世界土壤数据库2.0版(Harmonized World Soil Database version 2.0HWSD v2.0[20],包括土壤容重、黏粒、粉、砂粒和砾石含量等指标。

地形因子:采用航天飞机雷达地形测绘任务(Shuttle Radar Topography MissionSRTM)提供的高程数据[21],进一步计算得到坡度和坡向,以及像元的经纬度数据。

气候因子:选用全球气候数据集2.1版(WorldClim version 2.1[22],包括最低温度、平均温度、最高温度、降水、太阳辐射、风速和水汽压等气候变量的累年月均值数据(1970–2000年)。

所有数据统一处理为0.1°空间分辨率,月尺度时间分辨率,GeoTIFF格式,便于后续建模与预测。

3.2  技术路线

1展示了本研究的总体流程,主要包括以下6个步骤:

1)栅格数据标准化处理:将所有动态与静态变量(包括土壤水分、气候因子、地形因子等)统一转换为GeoTIFF格式,空间分辨率重采样至0.1°,时间尺度统一为月尺度。

2)多源土壤水分数据精度评价:以站点月尺度实测数据为“真值”,评估21CMIP6模式数据、SMAPERA5-Land的土壤水分精度,计算偏差(Bias)、相关系数(R)、均方根误差(RMSE)及无偏均方根误差(ubRMSE)等指标。

3ETC误差量化分析:采用ETC方法,对SMAPERA5-Land与各CMIP6模拟数据进行无监督误差分析,获取相关系数(CC)与随机误差标准差(RESD),用于模型筛选与融合。

4)目标变量融合与选取:依据ETC评估结果,对SMAPERA5-Land数据进行差异化加权融合,并以站点观测数据为参考,评估不同融合方案的精度表现,确定最优融合方案。

 

1  数据研发技术路线图

 

5)随机森林建模与预测:以最优SMAP-ERA5融合结果作为预测目标(y),CMIP6多模型数据、ETC指标、气候、土壤与地形因子作为输入变量(x),针对4种情景、逐月构建随机森林模型(共计48个),生成20152100年、0.1°分辨率、逐月的青藏高原土壤水分预测数据集。

6)结果验证:再次利用站点实测数据对模型预测结果进行评估,计算RBiasRMSEubRMSE等指标,验证融合模型的可靠性。

如图2和表2所示,根据各土壤水分产品数据通过站点实测数据评价的均值,并结合ETC评价的结果均值,筛选出R较高、RMSE较小且CC较高、RESD较小的4套地球系统模式土壤水分数据,即BCC-CSM2-MREC-Earth3-Veg-LRMPI-ESM1-2-LRTaiESM1,参与后续建模。

 

2  各土壤水分产品数据站点验证结果

 

基于ETC评价结果,将SMAPERA5-Land数据按不同权重进行加权融合。经验证发现,当SMAPERA5-Land的权重比例为73时,融合数据的相关性较高且误差较小,最终选定该融合结果作为随机森林模型的目标变量。

4  数据结果与验证

4.1  数据集组成

数据集内容包括:(1)基于CMIP6种共享社会经济路径(SSP1-2.6SSP2-4.5SSP3-7.0SSP5-8.5)情景预测的青藏高原地区地表土壤水分数据,时间范围为20151月至210012月,时间分辨率为月尺度,空间分辨率为0.1°,数据单位为 m³/m³,数值

2  各土壤水分产品数据ETC评价结果均值

土壤水分产品

RESDm3/m3

CC

土壤水分产品

RESDm3/m3

CC

SMAP

0.06

0.60

ERA5-Land

0.04

0.53

ACCESS-CM2

0.02

0.21

IPSL-CM6A-LR

0.02

0.21

BCC-CSM2-MR

0.02

0.31

KACE-1-0-G

0.07

0.36

CAMS-CSM1-0

0.03

0.38

MIROC-ES2L

0.03

0.40

CanESM5-CanOE

0.06

0.23

MIROC6

0.03

0.33

CESM2

0.03

0.22

MPI-ESM1-2-LR

0.03

0.38

CMCC-CM2-SR5

0.03

0.29

MRI-ESM2-0

0.04

0.20

CNRM-CM6-1-HR

0.03

0.21

NorESM2-LM

0.03

0.27

CNRM-CM6-1

0.03

0.22

NorESM2-MM

0.03

0.21

CNRM-ESM2-1

0.03

0.20

TaiESM1

0.03

0.34

EC-Earth3-Veg-LR

0.04

0.35

UKESM1-0-LL

0.05

0.13

GFDL-ESM4

0.04

0.27

 

 

 

 

范围在01之间,文件命名方式为SSP***_yyyy-mm.tif;(2MAQUNAQUNGARI三个网络的实测数据。数据集存储为.mdd.tif.shp.csv格式,由4,838个数据文件组成,数据量为0.99 GB(压缩为1个文件,315 MB)。

4.2  数据结果

3展示了基于多源融合和随机森林方法预测得到的4种共享社会经济路径(SSP1-2.6SSP2-4.5SSP3-7.0SSP5-8.5)下的土壤水分空间分布结果,分别选取20501月、4月、7月和10月代表冬、春、夏、秋4个季节进行示例展示。从图中可以看出,

 

3  四种情景下模拟的青藏高原土壤水分融合数据空间分布图(2050年示例)

融合后的CMIP6土壤水分数据在时空分布特征上与青藏高原地区的气候季节节律高度吻合,能够较为准确地反映土壤水分的季节波动趋势与空间差异特征,体现出良好的生态与水文响应能力。在数据融合与建模过程中,引入了水体掩膜数据以剔除陆地表面的河流、湖泊及冰川等区域,进一步保证了模型输出数据的科学性和适用性。

4.3  数据结果验证

本研究以站点实测数据为验证基准,对基于多源融合与随机森林方法所生成的CMIP6土壤水分融合数据开展精度评估,并将其与21CMIP6原始土壤水分数据的加权平均结果进行对比分析。如表3所示,融合数据在各项指标上均优于简单加权平均结果,尤其在R值方面表现更佳,显示出更强的拟合能力。这表明,所构建的融合数据能够更准确地反映地表实际土壤水分的时空变化特征,有效提升了数据的可信度与适用性。结果进一步验证了多源数据融合与随机森林建模方法在提升土壤水分模拟精度方面的显著优势。

 

3  基于多源融合和随机森林方法预测的CMIP6土壤水分融合数据精度评价结果

土壤水分监测网络

评价指标

融合数据

加权平均数据

SSP
1-2.6

SSP
2-4.5

SSP
3-7.0

SSP
5-8.5

SSP
1-2.6

SSP
2-4.5

SSP
3-7.0

SSP
5-8.5

MAQU

Bias (m3/m3)

0.07

0.07

0.07

0.07

0.02

0.02

0.02

0.02

R

0.56

0.59

0.61

0.58

0.10

0.10

0.07

0.09

RMSE (m3/m3)

0.10

0.10

0.10

0.10

0.11

0.11

0.11

0.11

ubRMSE (m3/m3)

0.06

0.06

0.06

0.06

0.07

0.07

0.07

0.07

NAQU

Bias (m3/m3)

0.16

0.16

0.16

0.16

0.07

0.08

0.08

0.08

R

0.46

0.44

0.49

0.43

0.22

0.26

0.24

0.22

RMSE (m3/m3)

0.17

0.17

0.17

0.17

0.11

0.12

0.11

0.11

ubRMSE (m3/m3)

0.06

0.06

0.06

0.06

0.06

0.06

0.06

0.06

NGARI

Bias (m3/m3)

0.00

0.01

0.01

0.01

0.13

0.13

0.13

0.13

R

0.67

0.66

0.64

0.67

0.02

0.05

0.00

–0.06

RMSE (m3/m3)

0.05

0.05

0.05

0.05

0.15

0.15

0.15

0.14

ubRMSE (m3/m3)

0.03

0.03

0.03

0.03

0.05

0.06

0.05

0.05

 

5  讨论和总结

土壤水分作为陆气相互作用的重要媒介,其时空演变对区域气候、水资源配置和生态系统稳定性具有深远影响。面对气候变化日益加剧与高原生态系统脆弱性的双重挑战,获取覆盖未来长期、多情景、区域高分辨率的地表土壤水分信息,已成为水文与环境研究的紧迫需求。本研究以青藏高原为研究区域,基于站点观测数据与ETC评估,筛选出CMIP6中精度表现最优的4个地球系统模式数据,并结合ETC评价结果,对SMAPERA5-Land产品进行差异化权重融合,构建随机森林模型的目标变量。在气候、地形与土壤属性等多源静动态变量的辅助下,采用随机森林算法按月训练模型,最终构建空间分辨率为0.1°、时间范围覆盖2015–2100年、涵盖4种情景的地表土壤水分预测数据集。站点实测数据验证结果表明,该数据集在相关性、误差等主要精度指标上均明显优于简单加权平均方法,表现出良好的稳定性与可信度。

该数据集不仅可为青藏高原未来水文循环与生态演化研究提供数据支撑,也可应用于生态系统响应、冻土变化监测、高寒生态脆弱性评估等多个研究领域,同时为类似地区开展多情景、多源数据驱动的地学建模提供了可复制的方法框架与实践范例。

 

作者分工:宋倩处理和分析了数据,并撰写了数据论文;刘杨晓月对数据集的开发做了总体设计;许宏钊、张惠芳、朱桂丽、符晓鹏对数据进行了收集和整理。

 

利益冲突声明:本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

[1]        王奕钧, 于德永, 周祉蕴. 青藏高原寒区水文过程研究进展及模型述评[J]. 冰川冻土, 2024, 46(4): 1312–1328.

[2]        Seneviratne, S. I., Corti, T., Davin, E. L., et al. Investigating soil moisture-climate interactions in a changing climate: a review [J]. Earth-Science Reviews, 2010: 99(3–4): 125–161.

[3]        崔娟娟, 信忠保, 黄艳章. 2003–2020年青藏高原冻融侵蚀时空变化特征[J]. 生态学报, 2023, 43(11): 4515–4526.

[4]        Yang, K., Wu, H., Qin, J., et al. Recent climate changes over the Tibetan Plateau and their impacts on energy and water cycle: a review [J]. Global and Planetary Change, 2014, 112(1), 79–91.

[5]        李占杰, 陈基培, 刘艳民等. 土壤水分遥感反演研究进展[J]. 北京师范大学学报(自然科学版), 2020, 56(3): 474–481.

[6]        覃湘栋, 庞治国, 江威等. 土壤水分微波反演方法进展和发展趋势[J]. 地球信息科学学报, 2021, 23(10): 1728–1742.

[7]        Dorigo, W., Wagner, W., Albergel, C., et al. ESA CCI soil moisture for improved Earth system understanding: state-of-the art and future directions [J]. Remote Sensing of Environment, 2017, 203: 185–215.

[8]        Entekhabi, D., Njoku, E. G., O’Neill, P. E., et al. The Soil Moisture Active Passive (SMAP) mission [J]. Proceedings of the IEEE, 2010, 98(5): 704–716.

[9]        Muñoz-Sabater, J., Dutra, E., Agustí-Panareda, A., et al. ERA5-Land: a state-of-the-art global reanalysis dataset for land applications [J]. Earth System Science Data, 2021, 13(9): 4349–4383.

[10]     Eyring, V., Bony, S., Meehl, G. A., et al. Overview of the Coupled Model Intercomparison Project Phase 6 (CMIP6) experimental design and organization [J]. Geoscientific Model Development, 2016, 9(5): 1937–1958.

[11]     McColl, K. A., Vogelzang, J., Konings, A. G., et al. Extended triple collocation: estimating errors and correlation coefficients with respect to an unknown target [J]. Geophysical Research Letters, 2014, 41(17): 6229–6236.

[12]     付平凡, 杨晓静, 姜波等. 融合多源数据的高分辨率土壤水分模拟模型构建及应用[J]. 农业工程学报, 2025, 41(5): 96–106.

[13]     范科科, 张强, 史培军. 基于卫星遥感和再分析数据的青藏高原土壤湿度数据评估[J]. 地理学报, 2018, 73(9): 1778–1791.

[14]     宋倩, 刘杨晓月, 许宏钊等. 青藏高原地表土壤水分模型预测数据集(2015–2100)[J/DB/OL]. 全球变化数据仓储电子杂志, 2025. https://doi.org/10.3974/geodb.2025.10.05.V1. https://cstr.escience.org.cn/CSTR:20146.11.2025.10.05.V1.

[15]     全球变化科学研究数据出版系统. 全球变化科学研究数据共享政策[OL]. https://doi.org/10.3974/ dp.policy.2014.05 (2017年更新).

[16]     World Climate Research Programme. Coupled Model Intercomparison Project Phase 6 (CMIP6) soil moisture data [J/DB/OL]. Earth System Grid Federation, 2016. https://esgf-node.llnl.gov/projects/cmip6/.

[17]     O’Neill, P. E., Chan, S., Njoku, E. G., et al. SMAP enhanced L3 radiometer global daily 9 km EASE-grid soil moisture, version 4 [J/DB/OL]. NASA National Snow and Ice Data Center Distributed Active Archive Center, 2020. https://doi.org/10.5067/NJ34TQ2LFE90.

[18]     Muñoz Sabater, J. ERA5-Land hourly data from 1950 to present [J/DB/OL]. Copernicus Climate Change Service (C3S) Climate Data Store (CDS), 2019. https://doi.org/10.24381/cds.e2161bac.

[19]     Dorigo, W., Wagner, W., Albergel, C., et al. International Soil Moisture Network (ISMN) [J/DB/OL]. TU Wien/ESA, 2021. https://ismn.earth/en/.

[20]     Food and Agriculture Organization of the United Nations (FAO), International Institute for Applied Systems Analysis (IIASA)/ISRIC-World Soil Information, Institute of Soil Science-Chinese Academy of Sciences (ISSCAS), Joint Research Centre of the European Commission (JRC). Harmonized World Soil Database (HWSD) version 2.0 [DB/OL]. FAO, 2021. https://www.fao.org/soils-portal/data-hub/soil-maps-and-da­tabases/harmonized-world-soil-database-v12/en/.

[21]     Farr, T. G., Rosen, P. A., Caro, E., et al. NASA Shuttle Radar Topography Mission Global 1 arc second data [J/DB/OL]. NASA EOSDIS Land Processes DAAC, 2013. https://doi.org/10.5067/MEaSUREs/SRTM/ SRTMGL1.003.

[22]     Fick, S. E., Hijmans, R. J. WorldClim Version 2.1: global climate and weather data for 1970–2000 [J/DB/OL]. WorldClim, 2017. https://www.worldclim.org/data/worldclim21.html.